خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

Authors

ایمان آریانیان

abstract

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با توجه به اینکه کلمات کلیدی مختلف می توانند برای توصیف یک مفهوم استفاده شوند، این سیستم ها می توانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گام ها در خوشه بندی اسناد نحوه ی نمایش اسناد و معیار اندازه گیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشه بندی اسناد تمرکز دارد. الگوریتم خوشه بندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازه گیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه بندی پایین به بالا خوشه بندی اسناد صورت می پذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار می باشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش می دهد. مفاهیم استخراج شده گره های گراف را تشکیل می دهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه می گردد. روابط موجود بین مفاهیم سند، یال های گراف و میزان این ارتباط اوزان یال ها را مشخص می نماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحله ی اول، مفاهیم کلی و جزئی و یال های اصلی مشخص می گردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه می شود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودی ها مفاهیم کلی، مفاهیم جزئی و یال های اصلی می باشند و خروجی میزان شباهت بین دو سند است. مجموعه ای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین می زند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشه بندی سلسله مراتبی پایین به بالا به منظور خوشه بندی اسناد اعمال می گردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روش های naïve bayes ، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان می دهند که روش پیشنهاد شده مقادیر f-measure و accuracy را بهبود می دهد. همچنین مقادیر fp و error به میزان قابل توجهی کاهش می یابد.

Already have an account?login

similar resources

خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

Data mining, also known as knowledge discovery in database, is the process to discover unknown knowledge from a large amount of data. Text mining is to apply data mining techniques to extract knowledge from unstructured text. Text clustering is one of important techniques of text mining, which is the unsupervised classification of similar documents into different groups. The most important step...

full text

ارایه شاخصی جدید جهت سنجش اعتبار خوشه بندی در الگوریتم های خوشه بندی فازی نوع-2

One of the main issues in fuzzy clustering is to determine the number of clusters that should be available before clustering and selection of different values for the number of clusters will lead to different results. Then, different clusters obtained from different number of clusters should be validated with an index. But so far such an index has not been introduced for interval type-2 fuzzy C...

full text

خوشه بندی فراابتکاری اسناد فارسی اِکس اِم اِل مبتنی بر شباهت ساختاری و محتوایی

با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می باشد. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد xml به منظور کشف دانش است. مسئله کلیدی در خوشه بندی اسناد xml این است که چگونه می توان شباهت بین اسناد xml را اندازه گیری کرد. استفاده از روش های متداول خوشه بندی اسناد متنی که اطلاعات محتوایی را برای اندازه گیری شباهت سند بکا...

full text

اثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn

بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخا...

full text

الگوریتم خوشه بندی کارا مبتنی بر مجموعه های فازی شهودی

نظریه مجموعه های فازی شهودی به عنوان توسیعی از مجموعه های فازی دامنه کاربردی زیادی از قبیل برنامه ریزی های منطقی، تشخیص های پزشکی، الگو های شناختی و ... را شامل می شود. استفاده از این مجموعه ها به عنوان ابزاری کارا و سودمند در زمینه تکنیک های خوشه بندی می تواند بسیار مفید باشد. همان طور که می دانیم الگوریتم های خوشه بندی گوناگونی برای استخراج دانش از درون اطلاعات مختلف وجود دارد. شاید یکی از کا...

15 صفحه اول

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

Journal title:

فناوری اطلاعات و ارتباطات ایران

جلد ۵، شماره ۱۷، صفحات ۷۳-۹۶

Keywords

خوشه بندی اسناد گراف هستان شناسی معیار شباهت سیستم اسنتاج فازی

Hosted on Doprax cloud platform doprax.com